小扎「梦之队」首批论文上线,LLM自举进化,单步性能狂飙22%
真Meta Superintelligence Labs新作来了!LLM学会「自我改进」:只做单步训练,推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上,ExIt持续拔高模型表现,其中MLE-bench相对GRPO提升约22%。
真Meta Superintelligence Labs新作来了!LLM学会「自我改进」:只做单步训练,推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上,ExIt持续拔高模型表现,其中MLE-bench相对GRPO提升约22%。
这项由南华理工大学的沈文轩、华中科技大学的王明佳、王耀晨、马里兰大学的陈东平等研究人员合作完成的研究发表于2025年8月,论文题目为《我们是否在正确评估文档检索增强生成系统?》。有兴趣深入了解的读者可以通过https://double-bench.github